Le forage distribué des données: une méthode simple, rapide et efficace

نویسندگان

  • Mohamed Aounallah
  • Guy W. Mineau
چکیده

Résumé. Dans cet article nous nous attaquons au problème du forage de très grandes bases de données distribuées. Le résultat visé est un modèle qui soit et prédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposons de miner à distance chaque base de données indépendamment. Puis, il s’agit de regrouper les modèles produits (appelés classificateurs de base), sachant que chaque forage produira un modèle prédictif et descriptif, représenté pour nos besoins par un ensemble de règles de classification. Afin de guider l’assemblage de l’ensemble final de règles, qui sera l’union des ensembles individuels de règles, un coefficient de confiance est attribué à chaque règle de chaque ensemble. Ce coefficient, calculé par des moyens statistiques, représente la confiance que nous pouvons avoir dans chaque règle en fonction de sa couverture et de son taux d’erreur face à sa capacité d’être appliquée correctement sur de nouvelles données. Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l’agrégation pure et simple de tous les classificateurs de base pour obtenir un agrégat de règles produit un méta-classificateur rapide et efficace par rapport aux techniques existantes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ajustement automatique de surfaces paramétriques sur données de profondeur en présence d'un bruit hétérogène

Nous étudions le problème de l’ajustement de surfaces paramétriques continues sur des données de profondeur issues de caméras Temps-de-Vol (« Time-of-Flight cameras »). Une méthode d’ajustement sur de telles données doit être rapide (l’acquisition est en temps réel) et doit gérer un bruit hétérogène (le bruit dépend de la profondeur). Les méthodes classiques d’ajustement de surfaces ne réponden...

متن کامل

Forage distribué des données : une comparaison entre l'agrégation d'échantillons et l'agrégation de règles

Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles ...

متن کامل

Simulation d’une distribution gaussienne tronquée sur un intervalle fini

1.2 Simulation d’une gaussienne tronquée L’algorithme proposé par Chopin [2] consiste à utiliser une table de valeurs pré-calculées pour simuler la loi. Cela permet de réduire le nombre de calculs et donc d’obtenir une méthode rapide. Cet algorithme est inspiré de l’algorithme Ziggurat de Marsaglia et Tsang [3, 4] (qui est générallement considéré comme la méthode la plus rapide) et de l’algorit...

متن کامل

Statistical learning for image-based personalization of cardiac models. (Apprentissage statistique pour la personnalisation de modèles cardiaques à partir de données d'imagerie)

Cette thèse porte sur un problème de calibration d’un modèle électromécanique de cœur, personnalisé à partir de données d’imagerie médicale 3D + t ; et sur celui — en amont — de suivi du mouvement cardiaque. Les perspectives à long terme de la simulation personnalisée de la fonction cardiaque incluent l’aide au diagnostic et à la planification de thérapie, ainsi que la prévention des risques ca...

متن کامل

Graphes de voisinage pour l'indexation et l'interrogation d'images par le contenu

Résumé. La découverte d’informations cachées dans les bases de données multimédias est une tâche difficile à cause de leur structure complexe et à la subjectivité liée à leur interprétation. Face à cette situation, l’utilisation d’un index est primordiale. Un index multimédia permet de regrouper les données selon des critères de similarité. Nous proposons dans cet article d’apporter une amélior...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006